细胞器组装 -- 三代叶绿体 -- PlasTid Genome Assembly Using Long reads data (ptGAUL)

参考资料

github
Plastid Genome Assembly Using Long-read data
Phylogenetic placement of Ceratophyllum submersum based on a complete plastome sequence derived from nanopore long read sequencing data

安装

conda create -n chloroplast python=3.7
conda install -n chloroplast -c bioconda ptgaul

## 更新
mamba update -n chloroplast -c bioconda ptgaul

使用

/share/nas1/yuj/software/miniconda3/envs/chloroplast/bin/ptGAUL.sh

依赖conda环境中的flye软件,因此先激活环境
conda activate chloroplast
mamba activate chloroplast

ptGAUL.sh -r ref.fasta -l ont.fq -t 8 -f 3000 -o ./

需要指定一个参考序列,github主页上写到这个参考序列来自同属或者同科的叶绿体基因组序列都可以

软件运行非常快,基本上10分钟就能拿到组装结果,手头有数据的可以试试

这个流程首先使用minimap2将ont数据比对到参考的叶绿体基因组,然后生成paf文件,然后根据paf文件去过滤比对上的reads,然后选取50X的reads去组装,组装用到的软件是flye,我试了一下我自己手头的数据,初次比对然后过滤比对到参考基因组序列的reads大约都在1000X左右,我自己手头的ont数据文库长度应该是在20k左右,之前记得ont的8k文库好像很便宜了,不知道用8k文库的数据来组装叶绿体基因组效果怎么样